使用深层生成模型从离线演示中提取策略原始的方法已显示出有望加速增强学习(RL)的新任务。直觉上,这些方法还应该有助于培训宣传员,因为它们可以执行有用的技能。但是,我们确定这些技术没有能力用于安全政策学习的能力,因为它们忽略了负面的经历(例如,不安全或不成功),只专注于积极的经验,这会损害他们安全地将新任务推广到新任务的能力。相反,我们将LettentsAfetyConteDlecting绘制在来自许多任务的演示数据集中,包括负面经验和积极经验,对litentsafetycontastect进行了原则性的对比培训。使用此较晚变量,我们的RL框架,安全技能先验(更安全)提取了特定于任务的安全原始技能,以安全,成功地将其推广到新任务。在推论阶段,接受培训的政策学会学会将安全技能纳入成功的政策。从理论上讲,我们描述了为什么更安全的行为能够实施安全的政策学习,并证明其在受游戏操作启发的几种复杂的至关重要的机器人握把任务上,在这种情况下,Saferoutperforms成功和安全方面的最先进的原始学习方法。
translated by 谷歌翻译